home *** CD-ROM | disk | FTP | other *** search
/ WINMX Assorted Textfiles / Ebooks.tar / Text - Tech - Ebooks - Adams, John F. - How to Scan a Book (TXT).zip / John F Adams - How to Scan a Book.txt
Text File  |  2001-02-25  |  40KB  |  630 lines

  1. How To Scan A BookHome, Previous Section, Next Section 
  2. HOW TO SCAN A BOOK
  3. by John F. Adams
  4.  
  5. ⌐ Proportional Reading 1996
  6.  
  7. Proportional Reading, P.O. Box 335, Beverly, Mass. 01915 phone (508) 927-9234
  8.  
  9.  
  10.  
  11. CONTENTS
  12.   Introductory Notes 
  13.   Overview of Scanning 
  14.   How Scanning Books is Different from Other Scanning 
  15.   Tips on Scanning and Optical Character Recognition 
  16.   Tips on Editing Text 
  17.  
  18.  
  19.  
  20. INTRODUCTORY NOTES
  21. Many people ask, "How do I scan a book?". This article has been written to 
  22. answer this question. The truth of the matter is that scanning a book can be 
  23. extremely easy if you know what you are doing. Otherwise it will be a nightmare. 
  24. Scanning a book is very different from scanning other types of documents. The 
  25. tips in this article should be of great help.
  26. This work was written to help people read using the technique called 
  27. Proportional Reading. In this approach the eyes never move. You can read up to 
  28. 700 words per minute and still feel like you are being read aloud to. Text can 
  29. also be read out loud in real human voice at normal reading speed as it is 
  30. displayed one word at a time. In order to do this type of reading text must 
  31. first be in electronic form. The author spent three years developing an 
  32. understanding of how to scan books easily so any student could easily scan 
  33. course material or other reading material into e-text for Proportional Reading. 
  34. The material presented here is essentially chapters 7 and 8 of the Instruction 
  35. Manual for Proportional Reading.
  36. Scanning really involves three parts:1) Making a picture of a page (scanning), 
  37. 2) Using an Optical Character Recognition program to convert the picture into 
  38. typed text and 3) Cleaning up the text after this process. In actual practice, 
  39. scanning and OCR decisions are made before scanning starts.
  40.  
  41.  
  42.  
  43. Overview of Scanning
  44. A scanner is used to transform a book or article into computerized text, if it 
  45. is not already on disk or CD ROM. Scanning text can be done in four ways:
  46. 1) from the actual book placed on the scanner bed and scanned one or two pages 
  47. at a time. 
  48. 2) from separated pages of the book placed on the scanner one or two pages at a 
  49. time
  50. 3) from actual book pages bulk-loaded into the automatic document feeder of the 
  51. scanner, or 
  52. 4) from copies of book pages, which are then either scanned individually or bulk 
  53. loaded into the automatic document feeder. 
  54. Scanning can be done almost effortlessly if you choose the right approach. This 
  55. article will help you understand what this approach should be.
  56. Scanning involves a little bit of learning, but once a book is turned into ascii 
  57. text, it can be read by everybody in a school system without any repeating of 
  58. these steps. It can be mailed as a diskette or sent by modem, etc. 
  59. First, a few words about copyrights. Be sure to get copyright permission first 
  60. before any wide dispersal. Proportional Reading was designed to help people read 
  61. who would otherwise not be able to benefit from printed text. Publishers almost 
  62. universally are very helpful in allowing special treatment of their works for 
  63. the learning disabled and physically disabled. 
  64. Furthermore, Proportional Reading is designed for average readers to use on 
  65. their own reading material which they already have in their possession. This 
  66. private, non-profit copying of books is within purchase rights, and it makes 
  67. reading possible for many and increases purchase of books.
  68. Most importantly, the basic thrust of Proportional Reading as applied to 
  69. scanning books is to return to the original book for the graphics (charts, 
  70. illustrations, drawings, graphs, pictures, etc.) and to see the original text 
  71. layout. To this end Proportional Reading keys to the original page numbers of 
  72. the original text. As a result, actual use of the basic text book increases, not 
  73. decreases. This will be especially true as millions of people become able to 
  74. read and start to love learning. In all these ways Proportional Reading actually 
  75. helps publishers.
  76. Finally, the formatted or Proportionalized version of text requires a special 
  77. program to play. So, the formatted text by itself is of little or no use without 
  78. both the playing software as well as the original book.
  79. In this article you will learn how to add colored pictures to scanned text. 
  80. However, this process adds tremendously to file size and is therefore 
  81. impractical except for short articles or articles saved on CD ROM or removable 
  82. cartridge. It is usually much easier to refer to the original book for pictures 
  83. and other graphics
  84.  
  85.  
  86.  
  87. How Scanning Books is Different from Other Types of Scanning
  88. The best way to learn how to scan a book efficiently is to start by 
  89. understanding how scanning a book differs from other types of scanning. There 
  90. are eight major differences. We will see that if a book will lie flat on the 
  91. scanner bed, you can scan one or both pages of text at a time. Otherwise, it is 
  92. easiest by far to separate the pages and scan one side of a page at a time and 
  93. OCR the page, spell check the page, and add other special marks before going on 
  94. to scan the next page. We will now look at each of the eight major differences 
  95. in turn.
  96. 1) Page Thickness
  97. Most scanning is designed to be done on standard letter size, 20 lb paper. This 
  98. type of medium runs perfectly through the automatic doucment feeder. Other 
  99. thicknesses of paper will not work well in the automatic document feeder. The 
  100. trouble with books is that many pages are too thick and will not even load into 
  101. a document feeder. Most text book pages on the other hand are too thin and will 
  102. eventually double up as they enter the document feeder. Either way automatic 
  103. processing will jam up. In addition, if you are doing two sided documents, your 
  104. collating will be off and all your time will be wasted. In scanning two sided 
  105. documents you run through the whole stack one way and then do the whole stack on 
  106. the back side and then have the computer collate everything. Any jam up take 
  107. will ruin collation and all the investment of time. There is no way to simply 
  108. redo collation; it takes place before editing and all offending pages wold have 
  109. to be cut and repasted - a nightmere.
  110. For this reason automatic document feeders should not be used with actual book 
  111. pages unless pages are copied first onto 20 lb paper with only one side of the 
  112. paper used.
  113.  
  114.  
  115.  
  116. 2) Rounded Pages
  117. Books may be divided immediately into two types: those that will lie flat and 
  118. those that won't. Sometimes you can push down on the spine of the book to make 
  119. the text lie flat. If the text won't lie flat it curves into the center and can 
  120. not be scanned as is. Many textbooks are designed to make copying impossible by 
  121. intentionally making the text flow close to the gutter, or center. 
  122. These books can easily be scanned. However, you must first separate the pages. 
  123. Be happy about this. Scanning individual pages is much less physical work than 
  124. scanning a book. In scanning individual pages there is no lifting and turning 
  125. and pressing down on the book. You can sit comfortably in a chair and hardly 
  126. move as you scan first one side of a page and then the other side of the same 
  127. page and then the next page. Separate the book chapters into different manilla 
  128. folders. 
  129. A separated book has real value after scanning. It is often much easier to read 
  130. a book this way than trying to keep the pages open. Also, bookbags become much 
  131. lighter when only the relevant chapters are carried around. The trick is to keep 
  132. the different chapters in different folders.
  133.  
  134.  
  135.  
  136. 3) See Through
  137. If you want to avoid errors on italics and bold letters you have to use the 
  138. highest form of resolution when scanning. This setting also gives you the best 
  139. black and white picture quality if you are scanning pictures in the text as 
  140. well. The trouble with this setting is that when you scan the average textbook 
  141. page of thin shiny paper, the scanner will see right through the page and pick 
  142. up details on the back side of the page. There is a simple way to avoid this 
  143. problem. This is to put a black sheet behind the page you are copying. The see 
  144. through problem will disappear immediately. Unfortunately, the belt on automatic 
  145. document feeders is white, not black. Therefore, even if you could get the pages 
  146. not to jam up, they will still "bleed" through.
  147. For this reason it is best to tape a black piece of paper on the underside of 
  148. the cover of the scanner and scan the pages one page at a time, or scan from an 
  149. open book where the pages are automatically backed up. Alternatively you can 
  150. make one-sided copies of the text pages and run these copies through the 
  151. document feeder. However, this costs a lot of money and requires a good quality 
  152. copier. Regardless of how good the copier is, you will loose quality when you 
  153. make copies and this will cause errors in scanning. When all is said and done it 
  154. is usually best to scan one page at a time, or from an open book that will lie 
  155. flat.
  156.  
  157.  
  158.  
  159. 4) Text Boxes and Captions
  160. Many books are straight text and these are easy to scan. However, most textbooks 
  161. have text boxes on colored backgrounds inserted in the middle of the text. In 
  162. addition, graphics of many types with their captions are inserted in the pages. 
  163. When text is scanned it ends up in a linear flow. Text boxes and captions can be 
  164. very disruptive to reading if they are not moved to the end of the subsection to 
  165. which they refer. When text boxes and captions are moved this way they are a joy 
  166. to read in a linear flow with the main text.
  167. The best way to do this is to specially mark the text boxes and captions right 
  168. after the page is scanned and OCR'd. Here again it is usually best to scan one 
  169. separated page at a time, or from an open book that will lie flat.
  170.  
  171.  
  172.  
  173. 5) Pictures and Graphics
  174. When you OCR text the OCRing is done in black and white. Although pictures can 
  175. be automatically scanned they are not scanned in color and are therefore of 
  176. little use in today's world of color. Secondly, when pictures are scanned 
  177. through the OCR program, if they have not been carefully defined as pictures, 
  178. the text on the pictures is removed and added to the main body of text during 
  179. the actual OCR stage. This creates a very confusing piece of text.
  180. The simple solution to this is to select just the sections of text and captions 
  181. and text boxes and in the order you want, ignoring the pictures. The way to do 
  182. this is to insert one page at a time and manually zone each page. This process 
  183. is much faster than deselecting all the zones you do not want and then 
  184. reordering the zones you have left from an automatically zoned page.
  185. To readd a picture in color, you first save the text in ascii format and open it 
  186. up in your word processor. Then you scan the colored picture using the scanner 
  187. alone (not the OCR program) and then copy and paste in the desired picture into 
  188. the word processor document at the desired point. Choose "screen" resolution so 
  189. the picture file will not be too big.
  190.  
  191.  
  192.  
  193. 6) Spell Checking
  194. The best way to make sure the text is free from errors is to scan on the highest 
  195. quality mode and to scan directly from the text page. The third thing to do is 
  196. to use the spell checking feature on each page of text right after the text has 
  197. been scanned and ocr'd. The reason for doing this now is that you can see a 
  198. picture of the original scan along with the misspelled word and immediately see 
  199. whether the suspicious word is ok or how to fix the error.
  200.  
  201.  
  202.  
  203. 7) Page Numbers and Headers
  204. Book pages often have headers and footers on pages. These need to be removed. 
  205. The best way to do this is to not select them to be OCR'd in the first place. 
  206. When you get the text OCR'd add the page number at the top of the page. This is 
  207. very easy to do as the cursor automatically goes to the top of the page as soon 
  208. as OCR is done.
  209.  
  210.  
  211.  
  212. 8) Titles, Sub-Titles and Key Words
  213. If you mark titles, sub-titles and key words, it is very easy to move to any 
  214. place in the e-text document. Furthermore, you can automatically create a five 
  215. level outline with key words added in the appropriate sections. No retyping or 
  216. handwriting is requirred. Such outlines are tremendous study aids and are 
  217. essentially a free by product of scanning. Here again it is best to scan one 
  218. page at a time, or from an open book that will lie flat.
  219.  
  220.  
  221.  
  222. Tips on Scanning and OCR'ing Text
  223. Scanning an Open Book
  224. When scanning an open book, you do not want to sit down and stand up repeatedly. 
  225. This is very hard on the body. It is much easier to scan first two open pages, 
  226. turn the page, then scan the next two open pages etc. After you are done just 
  227. scanning, go back with the book and zone and OCR and check each two pages at a 
  228. time. Alternatively, you can zone all the pages then OCR the lot, or you can 
  229. tell the program to automatically zone and OCR the lot.
  230. Another good trick is to place an open book on the scanner with a weight on top 
  231. of it and scan two pages at a time. This way you don't have to personally press 
  232. down on the book binding all the time the scanner is working. Use a gallon of 
  233. water in a plastic jug for a weight. Build up an area next to the scanner to the 
  234. same height as the lid, using telephone books or other books. Now you can just 
  235. drag the water on and off the scanner lid (from the top of the pile). No lifting 
  236. of the weight is required. 
  237. Cutting Out Pages
  238. The way to cut out the pages of a book is to leave the two covers and binding in 
  239. place. Set the book on a piece of scrap wood on the corner of a table with the 
  240. bottom cover hanging vertically off the scrap wood and edge of the table. This 
  241. way there is no chance of cutting the table or cutting off the back cover of the 
  242. book. Lay a straight edge in from the binding about 1/4" on the first internal 
  243. page and cut along this guide with a sharp knife, making several passes. You 
  244. should be able to free up about 50 pages before you need to remove these pages 
  245. and reset the straight edge. Cutting out the pages this way leaves a smooth 
  246. surface for re-gluing pages with any wood glue. 
  247. A book can be cut apart this way in about two minutes. If you don't want to 
  248. reglue the pages, reset them in the cover (still completely intact) and add a 
  249. rubber band. Frequently it is much easier to read loose pages than bound pages.
  250. Re-gluing pages is very simple. Just add some wood glue to the binding and to 
  251. the binding edge of the pages and stick the pages in the binding. Let set 
  252. overnight. The new binding will work just as well as before.
  253. Notes: Some pages are printed right to the center "gutter". This makes manually 
  254. scanning one or two pages at a time impossible. It is also impossible to copy 
  255. such pages. These pages have to be cut out to be scanned. Secondly, tiny 
  256. paperback pages are too small to fit in most document feeders. These pages 
  257. should be scanned manually, two pages at a time with deferred OCR, or copied 
  258. first and then inserted into the automatic document feeder.
  259. However, cutting and then re-gluing is not workable for library books.
  260. Making Copies of Pages
  261. Making copies of pages and then scanning these copies has some drawbacks, but 
  262. can be done quickly and effectively if you use the highest quality scanning 
  263. approach. Making copies looses much clarity, which leads to increased errors; it 
  264. requires an excellent copier; costs money for a copier machine, paper and 
  265. tonier; and requires costly wear and tear upkeep on the copier. It also requires 
  266. a document feeder and purchasing and transporting lots of paper. If you don't 
  267. separate pages before copying, the book must be able to lay flat on the scanning 
  268. window and text must not curl in towards the gutter. Copied pages can easily get 
  269. out of order and must be checked before scanning to make sure that they are in 
  270. order and that extra blank pages have not gotten inserted by mistake. Often 
  271. pages just out of the copier must be reordered. Using a copier, the average 250 
  272. page book would cost at least $6.00 for copying, before scanning even begins. 
  273. You can copy onto either 8 1/2" x 11" paper or 8 1/2" x 14" paper. 
  274. However, you can quickly process any book this way, especially if you copy two 
  275. pages at a time. You can easily copy 300 pages an hour, two pages at a time. 
  276. These pages can be inserted into the document feeder as they come off the 
  277. copier. Scanning can occur simultaneously. Putting copies of pages in a document 
  278. feeder is a great solution for scanning borrowed books.
  279. The Best Plan
  280. So, what is the solution? The best approach by far is whenever possible to scan 
  281. an open book that will lie flat, scanning one or both pages at a time. The next 
  282. best approach is to cut the pages away from the binding whenever possible, scan 
  283. them, and then reglue them to the binding. The book will work perfectly. The 
  284. third best approach is to make single sided copies of either one or two pages at 
  285. a time and run the copies through the automatic document feeder.
  286. Note: Some small paperbacks are sometimes printed on very poor quality paper 
  287. with too much ink. As a result, letters are badly formed and scanning even at 
  288. the best quality level will not be successful. In this situation, the best 
  289. approach is to get a library edition of the book to scan. Don't just waste your 
  290. time.
  291. Page Orientation and Differentiation
  292. If you are scanning a regular book or a paper back two pages at a time, you will 
  293. have the book turned sideways with the lower left corner of the left page in the 
  294. upper right corner of the scanner. If you are copying large pages one at a time 
  295. or using large paper, you will have the book upside down, but with the tops of 
  296. the pages towards the top of the machine. Make sure you tell the scanner program 
  297. which way the text is facing: vertical (portrait) or sideways (landscape).
  298. If you are copying two pages at a time, it is important to make sure the scanner 
  299. differentiates between the left and right page. Sometimes this can be a problem 
  300. if the margins and gutters between pages gets reduced too far. Otherwise, text 
  301. from the two pages will merge. It is also important to cut out all the heavy 
  302. black areas around the margins and in the gutter. Otherwise, these areas will be 
  303. read as characters.
  304. One solution for this problem is to manually zone the image before scanning the 
  305. next page.
  306. If you want to do automatic zoning, there is an easy way around these problems. 
  307. Mark either side of the copy window half way up its length. Always center the 
  308. book gutter on this center line each time you set the book down on the scanner 
  309. bed. Then manually zone the scanner for two zones (one for each page), cutting 
  310. out the areas of black. Be sure to zone the earlier page first (otherwise, the 
  311. second page will always come before the first). Now save the zone template and 
  312. call it up for this book. Pages will be automatically separated in scanning and 
  313. black areas will be ignored.
  314. Alternatively, you can set the scanner to automatically zone both pages with no 
  315. zones. Then after the scanning is finished and before the text recognition 
  316. function starts, manually rezone each page. At the same time you can cut out 
  317. graphics and headers. You can also make the page number of each page the first 
  318. and top item on that page by selecting it first, even if the page number is on 
  319. the bottom of the page. The best approach is not to zone the page number and to 
  320. type it in later at the top of the page, or ignore it completely and delete it 
  321. later.
  322. Note: When you scan original individual pages (cut out from the book binding) 
  323. one at a time, either manually or in a document feeder, there is no gutter 
  324. problem, nor problem with black areas.
  325. If you are scanning one page at a time you may want to zone, OCR and edit each 
  326. page right after it is scanned. This is fine. However, if you are doing two 
  327. pages at a time, or if you want to make maximum use of your scanner, and/or if 
  328. you wish to have the OCR done automatically while you do something else, you 
  329. should scan all the pages first into separate files which can be finished later.
  330. Later you, or somebody else on another machine, zones the pages manually or has 
  331. them automatically zoned when OCR is done. Then the pages are OCR'd and then 
  332. edited. It's usually best to scan all the pages first.
  333. Lighten-Darken Control on Scanner (Brightness)
  334. If you choose the fastest scanning speed, you will have to set the brightness 
  335. level yourself. On the other hand, if you choose the quality scanning speeds, 
  336. the scanner will automatically choose the brightness level for you. 
  337. If you are setting the brightness level yourself, be sure to scan and check just 
  338. one page of text to begin with. It is important to check the scanning as it 
  339. occurs. It is very important that the letters not have broken or missing parts. 
  340. Cancel the scanning and move the brightness control towards darken if this is 
  341. the case. Then rescan the page for a second check. 
  342. To do this, make sure the boxes for multiple pages and deferred recognition are 
  343. not checked. The box for automatically saving a document should also be 
  344. unchecked.
  345. It is also very important that the letters do not run together. If this is 
  346. happening, lighten the brightness control. What you are looking for is the point 
  347. right between these two problems. Too much correction for one problem causes the 
  348. other problem. Actually, the OCR program does not mind if the letters are very 
  349. close, but it minds terribly if the letters are not completely formed or parts 
  350. of letters are broken.
  351. Don't have letters any thicker than necessary. If you do, open sections in 
  352. letters like "a" and "e" will get blocked out. These letters will subsequently 
  353. be misread by the character recognition program.
  354. Start off by scanning just a single copy of text (one or two pages on the copy). 
  355. Look at the little view window as the scan is progressing. Cancel the scan and 
  356. reset the brightness control and re-scan as often as necessary, until you think 
  357. you have scanned a single page of text correctly.
  358. Then, when the scanning ends, look at the actual document. Doing this will 
  359. uncover many setting errors that would otherwise go unnoticed. If you see on 
  360. your scanned document a number of letters which are only part of the full 
  361. letters they are supposed to be ("c" instead of "d" for example, "lll" instead 
  362. of "M"), then you need to darken the brightness control. 
  363. Making this kind of check is the best way to save a lot of wasted time. Now is 
  364. the point to take some extra time. Darken or lighten the brightness control and 
  365. repeat the process until you have a clean document of text. Now start to scan. 
  366. When you have this control adjusted correctly, there will be a minimum of 
  367. spelling errors. All your downstream efforts at Proportionalizing and reading 
  368. text will be frustrated if you have a lot of unnecessary spelling errors which 
  369. you will have to correct or accept.
  370. Remember: The easiest way around this whole chore is to use the slowest speeds 
  371. (best quality) of the scanner. In these modes, brightness level is automatically 
  372. adjusted. Note: the scanner will be operating as a greyscale scanner.
  373. Don't Retain Graphics
  374. Set the OCR program not to retain graphics. This will save you a lot of later 
  375. deleting and it will speed up OCR.
  376. Retain Font and Paragraph Formatting
  377. Set the OCR options to retain font and paragraph formatting. This way the OCR 
  378. text will look very much like the original text and you can clearly see 
  379. italicized and bolded words. This makes adding special marks to titles and 
  380. sub-titles and key words very easy.
  381. Turn On Virtual Memory
  382. If you are scanning more than just 8-10 pages of plain text, you need to turn on 
  383. virtual memory. Otherwise, you will quickly run out of ram memory and scanning 
  384. will stop. Automatically scanning 100 pages can easily use up 50 megabytes of 
  385. memory while text is in process of being scanned and recognized. This is only a 
  386. temporary use, unless you save the working Caere document on the hard drive. 
  387. After actual text has been created you manually or automatically throw out the 
  388. working file. You must remember to do this or your hard drive will quickly fill 
  389. up. When you are finished scanning be sure to turn virtual memory off, as it 
  390. causes the Proportional Reading program and other programs to run much slower 
  391. than normally.
  392. Special Situations
  393. Occasionally the scanner will interpret a big gap between introductory numbers 
  394. and related text as two separate columns. This can also happen with dialogue 
  395. where each speaker has a name set off by a space. These situations are easy to 
  396. correct. Just rezone the text as one unit.
  397. Also, sometimes a list will have several columns which get read as one unit of 
  398. text. You may need to rezone the list into two or more columns in proper 
  399. sequence. A quick look at how the list has been zoned will tell you if you need 
  400. to make a correction. It is easy to delete the current zones on a page and redo 
  401. the zones and OCR. It is also easy to delete the current page and re-scan it.
  402. Deferred Recognition
  403. The fastest way to scan is with multiple pages in the document feeder and the 
  404. multiple page and the deferred optical character recognition options turned on. 
  405. These are two boxes which you check or uncheck before you start to scan. With 
  406. both boxes checked the scanner will scan one page after another and defer 
  407. character recognition until you are done scanning.
  408. To manually scan one page after another, just press Command+L after you turn 
  409. each page.
  410. You will need extra hard disk memory if you are going to use deferred 
  411. recognition. You should plan on leaving at least 50 to 100 megs free, depending 
  412. on how many pages of text you want to scan at a time before doing the text 
  413. recognition. Forty pages of text can easily temporarily use up to 20 megs of 
  414. hard disk space as a Caere file. After recognition the resulting text may only 
  415. be 200k. All the bit maps with their large memory requirements will have gone 
  416. away or are ready for you to delete, depending on which choice you have made. 
  417. Saving Scanned Text
  418. Be sure to save the text as ASCI text without hard returns added at the end of 
  419. each line.
  420. Other Scanning Tips
  421. In actual practice, you can scan about 20 pages (40 sides) at a time and then 
  422. tell the scanner that you are done. The scanner then makes a file for later 
  423. recognition. Then you make more files of 40 or so pages each. When you are ready 
  424. you can zone each page and save the file. Then you can tell the OCR program to 
  425. open up all these deferred files in order and the program will OCR each file in 
  426. turn. This process can take place while you are at lunch or sleeping.
  427. For maximum use of the scanner, transfer documents of scanned only pages to 
  428. another computer where zoning and OCR and spell checking and final editing will 
  429. take place. If you don't have a network, use a removable cartridge hard drive. 
  430. Transfer files will be large, but once processed the same cartridge can be 
  431. reused over and over. This way one scanner can scan many books each day. 
  432. Individual teachers or students can finish the OCR work on their own computers.
  433. Note: Be sure to remove all deferred files from your hard drive after they have 
  434. been turned into text. You can choose to do this automatically. Each deferred 
  435. file is like a group of pictures, and takes up a tremendous amount of memory on 
  436. your hard drive. Left to accumulate, they will quickly eat up all your disk 
  437. space.
  438. The Proper Optical Recognition Program
  439. It is important to use a good scanner and Omni Page Professional optical 
  440. character recognition program Version 6. This program is simply the best that is 
  441. available. It is the only recommended choice.
  442. Why Choose the 4C
  443. The Hewett Packard 4C flatbed, Color Scanner without automatic document feeder 
  444. is an ideal machine for scanning books. Other scanners can be used. In fact, 
  445. Hewett Packard makes a black and white scanner which also has a document feeder 
  446. and sells at half the price of the 4C. Since all optical character recognition 
  447. is done in black and white, why use the color scanner? The following points are 
  448. offered:
  449. 1) The document feeder on the 4C takes pages as small as 5" x 7". The 
  450. (greyscale) scanner has a minimum size which is much larger than the 4C. This in 
  451. turn means that middle-size paperbacks can not be cut apart and fed 
  452. automatically on the greyscale scanner . They must be copied first. The reason 
  453. for all this is that pages feed from the side of the machine and from the side 
  454. of the paper (longer direction) on the 4C and from the top of the machine and 
  455. the top of the paper on the greyscale scanner. A small page which measures too 
  456. narrow for top loading, often still has sufficient size for automatic loading if 
  457. loaded from the side.
  458. 2) Pages are more stable when scanned in the 4C. This is because the paper moves 
  459. in the greyscale scanner, while the scanner light moves in the 4C.
  460. 3) With the 4C, color pictures from original text can be scanned in and added 
  461. after text is recognized and in WordPerfect. Obviously, a greyscale scanner 
  462. can't add color.
  463. 4) The flatbed on the 4C is much longer than the flatbed on the greyscale 
  464. scanner. This means that fairly large books can be laid down on the 4C and 
  465. scanned two pages at a time. You simply can not do this on the greyscale scanner 
  466. flatbed.
  467. 5) Color adds a great deal to almost all presentations. The 4C allows students 
  468. to make Proportional Reading articles using their own color pictures or color 
  469. pictures downloaded from many other sources besides books.
  470. 6) The 4C can be used by other departments than just reading. Therefore, it can 
  471. be better justified than the greyscale scanner, as the expense can be amortized 
  472. over more people and more departments.
  473. 7) The 4C document feeder holds fifty separate pages while the greyscale scanner 
  474. only holds twenty. Tending the machine to restock the document feeder can be cut 
  475. way down with the 4C.
  476.  
  477.  
  478.  
  479. Tips on Editing
  480. After scanning a book or article it is necessary to do a little editing to 
  481. maximize later reading. All of these steps are optional, but you will be very 
  482. pleased if you go through these steps. All of these steps can be done very 
  483. quickly.
  484. There are two places to do editing. The first editing is done in the Caere 
  485. document right after OCR has taken place. The second editing is done in the 
  486. saved ascii text which has been reopened in your word processor.
  487. Editing Right after OCR in the Caere Document
  488. The best way to edit pages is to check the pages as Caere documents first. 
  489. Always have the original text on a slant board just below the monitor. As you 
  490. click on the window to bring up the next page, turn the page of the original 
  491. text just below the screen. If you have separated pages this is even easier to 
  492. do as the pages lay flat.
  493. Start by adding the page number. As each page comes up you should add a page 
  494. number indicator to the top of the page, like "p#" and then the actual page 
  495. number. Then press return to put the page number info on its own line. If you 
  496. have scanned two pages at once, mark the second page now. If you did not already 
  497. cut out headers in the zoning process, cut out the headers now. All this is easy 
  498. to do because the cursor automatically goes to the top of each page as it comes 
  499. up. 
  500. Adding the page number to the top of the page is important to do for many 
  501. reasons, one of which is that saved text in ascii format will not be saved as 
  502. separate pages and it is otherwise very difficult to know where one page ends 
  503. and the next page starts. 
  504. After marking the page number, scroll down the text looking for any areas of 
  505. colored text. These are areas the OCR program could not read. They need to be 
  506. deleted or corrected. Usually they are parts of pictures or misread letters in 
  507. bold or italisized sections. Delete or correct these colored areas. 
  508. Also check any columns to make sure they have been zoned correctly. If not, 
  509. click back on the zone picture and redo all the zones. To do this press 
  510. Command+a and then press "return". A window will appear asking you if you really 
  511. want to remove all the zones from this page. Say "yes". Now click on the zoning 
  512. tool and rezone the page. Then OCR just this page by typing Command+r. While you 
  513. are moving your eyes down each page, make sure each paragraph ends as it should. 
  514. Sometimes blank lines need to be deleted and separated text stitched together.
  515. If text begins with an indent, occasionally the first or last full line of text 
  516. will be at the beginning of the paragraph, instead of at the end. Look for this 
  517. and cut and paste any such sections back to their rightful place.
  518. Also, this is a good time to mark titles and subtitles, boxes, captions, and key 
  519. words if you wish. It is easy to do this now because bolded words show up 
  520. clearly as bolded and paragraph formatting is like the original. You can use the 
  521. keyboard and shift key in the regular manner or you can quickly type marking 
  522. combinations using the triple letter keystrokes and 555 and 554. If you doing 
  523. this in WordPerfect you can use the macro keystrokes listed just before the 
  524. triple letter keystrokes. However, these WordPerfect macro keystrokes won't work 
  525. in Caere documents. This is why you use the triple letter keystrokes in Caere 
  526. documents.
  527. for <:# (indicates a chapter title) Type: Option+a or aaa
  528. for <:= (indicates a primary sub-title) Type: Option+s or sss
  529. for <: (indicates a secondary sub-title) Type: Option+d or ddd
  530. for <:- (indicates a tertiary sub-title) Type: Option+f or fff
  531. for <:> (marks a selected name or word) Type: Option+g or ggg
  532. for <:% (marks a new part of a book) Type: Option+h or hhh
  533. for p# (marks a page number) Type: Option+z or zzz
  534. for << (marks beginning of caption or box of text) Type: Option+Comma or 555
  535. for << (marks end of caption or box of text) Type: Option+Period or 554
  536. If you use the triple letters and 555 and 554 you need to run the change code 
  537. program in WordPerfect which will change these keystrokes into the right code. 
  538. These triple letter codes and 555 and 554 are usually used on the Caere 
  539. documents where macro keystrokes won't work. They save a great deal of time. To 
  540. run the change code program in WordPerfect just type: Control+Option+Command+c.
  541. Now save the text as ascii text.
  542. Editing Saved Text in WordPerfect or Another Word Processor
  543. Open the saved text up in WordPerfect or another word processor and spell check 
  544. the text. Place the small spelling window at the bottom of the page so you can 
  545. see the text as it is found. If you reduce the size of the text, you can easily 
  546. see page numbers or either the current or next page on almost every page. This 
  547. enables you to follow along in the original text if necessary.
  548. The first time a new name comes up add it to the vocabulary list and the word 
  549. won't resurface as needing to be spelled. Many of the remaining spelling errors 
  550. will be matters of adding hyphens between words.
  551. Do not worry about paragraph indents. All these indents (if present) are 
  552. automatically removed later during Proportionalizing.
  553. The Last Word on a Page
  554. The last word on the page may be broken apart from the first word on the next 
  555. page. If so, it will be missing a hyphen. You should add a hyphen to such words. 
  556. Alternatively, you can delete the hard return between the two word parts, 
  557. thereby knitting the two parts together. Doing this is often a lot more work as 
  558. the page number often falls between.
  559. Page Numbers on the Bottom of the Page
  560. Make sure that page numbers are on the top of the page.
  561. Marks for Text Boxes and Captions for Graphics
  562. All of these should be marked with << before and >> afterwards.
  563. Footnotes
  564. Footnotes should either be cut out completely or placed next to their reference 
  565. number in the text. You also need to type a period after any footnote number in 
  566. the actual text. This way sentences will end properly with a final period. This 
  567. problem arises because footnote numbers are added right next to the end of 
  568. sentences without a space break. Hence they are read as part of the preceding 
  569. word. Adding a final period after the number allows the end of the sentence to 
  570. be recognized as such by the PR program.
  571. Next, select and cut footnotes. Either discard them or paste them next to their 
  572. reference number in the text, separated by a space or treat them like captions. 
  573. Margin Notes
  574. Margin notes should be removed or treated as captions. The easiest thing to do 
  575. is to cut them out when you block text.
  576. Math
  577. Math equations need to have the spaces removed between characters. Otherwise, 
  578. each number in the equation will appear on a separate line when they are 
  579. presented in Proportional Reading.
  580. Furthermore, scanning usually does a terrible job on sub and super scripts as 
  581. well as fancy math graphics. If you do not want to rework the math, it may be 
  582. easier to just treat math sections like a graph and have the student refer to 
  583. the appropriate page in the book. Type in the words "SeePage". 
  584. The third and best approach for math equations is to cut them from the text and 
  585. re-scan them as a line drawing graphic which you copy and paste into the word 
  586. processor text at the right point.
  587. Adding Interactive Pauses
  588. If you want to add pauses to the text to make interactive questions and answers 
  589. out of the text as it is read, now is a good time to do this. All you do is to 
  590. type a ~ in the sentence where you want a pause to occur. When the text is 
  591. Proportionalized, these marks are automatically turned into hidden signals which 
  592. the reading programs recognize if you so choose. Otherwise, they will not play 
  593. out.
  594. Reversed Titles
  595. Reversed titles, where the letters are white and the background black, will not 
  596. scan. You must retype these titles if any.
  597. Saving Prepared Text
  598. It is a very good idea to save text that is all prepared for Proportionalizing. 
  599. This is text that can be read as a regular word processing file. Furthermore, 
  600. saving text at this point takes up a lot less memory. It actually takes six 
  601. times as much storage to save the same amount of text once it has been 
  602. Proportionalized. 
  603. If you are working with a lot of books which you are not going to use that 
  604. often, you may want to save them as text files. Then you can Proportionalize a 
  605. whole book overnight as necessary. This means you can save the average book on 
  606. just one diskette (1.4 megs.).
  607. Alternatively, about seventy pages of Proportionalized text can be saved on each 
  608. diskette (1.4 megs.)
  609. The best approach for a school is to keep all the books in current use on a file 
  610. server in Proportional format on locked files. Each student downloads 
  611. Proportionalized text as needed from the central memory onto his own, or lab 
  612. computer and plays it as he or she wishes, marking the text as desired and 
  613. saving selections onto personal files. This way text can also be sent via modem 
  614. over the phone lines to students at home. This process can operate automatically 
  615. without involving school personnel.
  616. Text Section with Too Many Hard Returns and Tabs
  617. Occasionally, the ocr program will create a short section of text which is all 
  618. chopped up. It will have extra tabs and hard returns in it. It almost always 
  619. occurs on indented text. This problem is very easy to fix. All you need to do is 
  620. to select the section of text and then go up to the Search menu and activate 
  621. Find/Change. Pull down the Direction sub menu to "Within Selection" then insert 
  622. "hard return" in the find line and click on Change All. Next insert "tab" on the 
  623. find line and again click on Change All. Your section of text will be all fixed 
  624. up.
  625. Note: Be sure to choose "within selection" or you will cut out all the hard 
  626. returns and/or tabs in the piece.
  627.  
  628.  
  629. Home, Previous Section, Next Section 
  630.